É uma técnica estatística multivariada para identificar agrupamentos dos dados de acordo com o grau de semelhança. Queremos achar um grupo de objetos, que são similares entre si e diferentes de outros grupos.
A Estatística de Hopkins é uma medida pré-clusterização muito usada para avaliar se um conjunto de dados apresenta tendência natural à formação de agrupamentos (clusters) ou se os pontos estão distribuídos de forma aproximadamente aleatória no espaço das variáveis.
\[ w_i = \min_{x_j \in X \setminus \{x_i\}} d(x_i, x_j), \qquad i = 1,\ldots,m \]
\[ u_i = \min_{x \in X} d(y_i, x), \qquad i = 1,\ldots,m \]
\[H = \dfrac{\sum \limits_{i=1}^m u_i}{\sum \limits_{i=1}^m u_i + \sum \limits_{i=1}^m w_i}\]
\(w_i\): distância do ponto real ao vizinho mais próximo
\(u_i\): distância do ponto artificial ao ponto real mais próximo
Sob a hipótese de ausência de clusters (padrão de referência), espera-se que as distâncias \(u_i\) e \(w_i\) sejam, em média, comparáveis, o que leva a: \[ H \approx 0.5 \]
Em termos práticos:
Observação: como \(H\) depende de amostragem aleatória (seleção dos \(m\) pontos e geração dos pontos artificiais), é recomendável repetir o cálculo várias vezes e resumir o resultado por média ou mediana.
A Avaliação Visual da Tendência de Agrupamento (VAT) é um método exploratório que avalia, de forma gráfica, se um conjunto de dados apresenta evidência de agrupamentos naturais.
O procedimento baseia-se na matriz de distâncias entre as observações. Após o cálculo da matriz \[ D = [d(x_i,x_j)]_{n\times n}, \] as observações são reordenadas de modo que pontos similares fiquem próximos, e a matriz resultante é exibida como um mapa de calor.
A clusterização é uma técnica de aprendizado não supervisionado cujo objetivo é identificar grupos de observações semelhantes, sem rótulos prévios. Ela é usada tanto como objetivo final quanto como ferramenta de apoio à decisão.
🤔 Como medir a homogeneidade entre indivíduos?
🤔 E entre grupos de indivíduos?
🤔 Dado um conjunto de indivíduos, quantos grupos posso formar?
Imagine que você tenha 16 cartas figuradas (\(A,K,Q,J\)) e que queira formar grupos de cartas semelhantes…
Como você formaria esses grupos?
Necessidade da definição de medidas de similaridade (ou dissimilaridade)
Medidas de Similaridade: quanto maior o valor, maior a semelhança entre os objetos
Medidas de Dissimilaridade (Distância): quanto maior o valor, mais diferentes são os objetos
Pesquisa com clientes de uma loja de equipamentos automotivos
Variáveis mensuradas
Idade (em anos completos) - Variável quantitativa discreta
Número de carros - Variável quantitativa discreta
Classe social: A, B, C ou D - Variável qualitativa ordinal
Potência do motor: Baixa, Média ou Alta - Variável qualitativa ordinal
Combustível: Gasolina ou Álcool - Variável qualitativa nominal
Modelo: Esporte, Luxo ou Standard - Variável qualitativa nominal
| Cliente | Idade | N.º de carros | Classe social | Potência do motor | Combustível | Modelo |
|---|---|---|---|---|---|---|
| 1 | 20 | 1 | A | Baixa | Gasolina | Esporte |
| 2 | 37 | 2 | A | Alta | Gasolina | Luxo |
| 3 | 51 | 1 | C | Média | Gasolina | Esporte |
| 4 | 32 | 1 | D | Alta | Álcool | Standard |
| 5 | 30 | 2 | B | Média | Álcool | Standard |
| 6 | 55 | 3 | A | Alta | Gasolina | Luxo |
Como medir a similaridade ou dissimilaridade entre os indivíduos?
As distâncias são as medidas de dissimilaridade mais utilizadas no estudo de bancos de dados com variáveis numéricas
Desigualdade triangular
Distância Euclidiana
\[d_{ij} = \displaystyle{\sqrt{(\mathbf{x}_i - \mathbf{x}_j)^t(\mathbf{x}_i - \mathbf{x}_j)}} = \sqrt{\displaystyle{\sum_{k=1}^p(x_{ik} - x_{jk})^2}}\]
Distância geométrica entre dois pontos
Distância Euclidiana Generalizada
\[d_{ij} = \displaystyle{\sqrt{(\mathbf{x}_i - \mathbf{x}_j)^t\boldsymbol{W}(\mathbf{x}_i - \mathbf{x}_j)}}\]
Se \(\boldsymbol{W} = \textrm{diag}\left(\dfrac{1}{p}\right)\): distância euclidiana média
Se \(\boldsymbol{W} = \boldsymbol{\Sigma}^{-1}\): distância de Mahalanobis
Distância de Minkowski
\[d_{ij} = \left( \displaystyle{\sum_{k=1}^P} |X_{ik} - X_{jk}|^{\lambda}\right)^{\frac{1}{\lambda}}\]
Distância de Manhattan (city block)
\[s_{ij} = 1 - d_{ij}^0\]
em que
\[d_{ij}^0 = \displaystyle{\frac{d_{ij} - \min(\boldsymbol{D})}{\max(\boldsymbol{D}) - \min(\boldsymbol{D})}}\]
Sendo \(\min(\boldsymbol{D})\) e \(\max(\boldsymbol{D})\) o menor e o maior valor de distância observados na matriz de distâncias \(\boldsymbol{D}_{n \times n}\), sem levar em consideração os elementos da diagonal principal dessa matriz.
Neste caso, utilizamos variáveis fictícias (variáveis dummy) para codificar as variáveis:
| Combustível | \(N_1\) |
|---|---|
| Gasolina | 1 |
| Álcool | 0 |
| Modelo | \(N_2\) | \(N_3\) |
|---|---|---|
| Esporte | 1 | 0 |
| Luxo | 0 | 1 |
| Standard | 0 | 0 |
No exemplo:
| Cliente | Combustível | \(N_1\) |
|---|---|---|
| 1 | Gasolina | 1 |
| 2 | Gasolina | 1 |
| 3 | Gasolina | 1 |
| 4 | Álcool | 0 |
| 5 | Álcool | 0 |
| 6 | Gasolina | 1 |
| Cliente | Modelo | \(N_2\) | \(N_3\) |
|---|---|---|---|
| 1 | Esporte | 1 | 0 |
| 2 | Luxo | 0 | 1 |
| 3 | Esporte | 1 | 0 |
| 4 | Standard | 0 | 0 |
| 5 | Standard | 0 | 0 |
| 6 | Luxo | 0 | 1 |
De forma que,
| Cliente | \(N_1\) | \(N_2\) | \(N_3\) |
|---|---|---|---|
| 1 | 1 | 1 | 0 |
| 2 | 1 | 0 | 1 |
| 3 | 1 | 1 | 0 |
| 4 | 0 | 0 | 0 |
| 5 | 0 | 0 | 0 |
| 6 | 1 | 0 | 1 |
Utilizamos variáveis fictícias (variáveis dummy) para codificar as variáveis, levando em consideração a ordinalidade das variáveis:
| Classe social | \(O_1\) | \(O_2\) | \(O_3\) |
|---|---|---|---|
| A | 1 | 1 | 1 |
| B | 0 | 1 | 1 |
| C | 0 | 0 | 1 |
| D | 0 | 0 | 0 |
| Potência | \(O_4\) | \(O_5\) |
|---|---|---|
| Alta | 1 | 1 |
| Média | 0 | 1 |
| Baixa | 0 | 0 |
As variáveis Classe social e Potência do motor possuem ordem natural. Por isso, foram codificadas por meio de variáveis ordinais cumulativas:
Essa codificação preserva a informação de ordem, mas impõe uma estrutura geométrica específica ao espaço dos dados.
No exemplo:
| Cliente | Classe social | \(O_1\) | \(O_2\) | \(O_3\) |
|---|---|---|---|---|
| 1 | A | 1 | 1 | 1 |
| 2 | A | 1 | 1 | 1 |
| 3 | C | 0 | 0 | 1 |
| 4 | D | 0 | 0 | 0 |
| 5 | B | 0 | 1 | 1 |
| 6 | A | 1 | 1 | 1 |
| Cliente | Potência | \(O_4\) | \(O_5\) |
|---|---|---|---|
| 1 | Baixa | 0 | 0 |
| 2 | Alta | 1 | 1 |
| 3 | Média | 0 | 1 |
| 4 | Alta | 1 | 1 |
| 5 | Média | 0 | 1 |
| 6 | Alta | 1 | 1 |
De forma que,
| Cliente | \(O_1\) | \(O_2\) | \(O_3\) | \(O_4\) | \(O_5\) |
|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 0 | 0 |
| 2 | 1 | 1 | 1 | 1 | 1 |
| 3 | 0 | 0 | 1 | 0 | 1 |
| 4 | 0 | 0 | 0 | 1 | 1 |
| 5 | 0 | 1 | 1 | 0 | 1 |
| 6 | 1 | 1 | 1 | 1 | 1 |
Juntando tudo…
| Cliente | \(O_1\) | \(O_2\) | \(O_3\) | \(O_4\) | \(O_5\) | \(N_1\) | \(N_2\) | \(N_3\) |
|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 0 |
| 2 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 |
| 3 | 0 | 0 | 1 | 0 | 1 | 1 | 1 | 0 |
| 4 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 |
| 5 | 0 | 1 | 1 | 0 | 1 | 0 | 0 | 0 |
| 6 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 |
Considere os clientes 1 e 3. Vamos calcular a medida de similaridade entre eles:
| Cliente | \(O_1\) | \(O_2\) | \(O_3\) | \(O_4\) | \(O_5\) | \(N_1\) | \(N_2\) | \(N_3\) |
|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 0 |
| 3 | 0 | 0 | 1 | 0 | 1 | 1 | 1 | 0 |
| Indivíduo \(i\) \ Indivíduo \(j\) | 1 | 0 | Total |
|---|---|---|---|
| 1 | \(a\) | \(b\) | \(a + b\) |
| 0 | \(c\) | \(d\) | \(c + d\) |
| Total | \(a + c\) | \(b + d\) | \(p\) |
\[p = a + b + c + d\]
No exemplo:
| Indivíduo 1 \ Indivíduo 3 | 1 | 0 | Total |
|---|---|---|---|
| 1 | 3 | 2 | 5 |
| 0 | 1 | 2 | 3 |
| Total | 4 | 4 | 8 |
\[\Large s_{ij} = \displaystyle{\frac{a + d}{p}}\]
| Indivíduo 1 \ Indivíduo 3 | 1 | 0 | Total |
|---|---|---|---|
| 1 | 3 | 2 | 5 |
| 0 | 1 | 2 | 3 |
| Total | 4 | 4 | 8 |
\[ s_{13} = \dfrac{a + d}{p} = \dfrac{3 + 2}{8} = \dfrac{5}{8} = 0,625 \]
Interpretação:
O valor 0,625 indica que os indivíduos 1 e 3 concordam em 62,5% das variáveis binárias.
Tanto concordâncias em 1 quanto em 0 contribuem igualmente para a similaridade.
\[\Large s_{ij} = \displaystyle{\frac{a}{p}}\]
| Indivíduo 1 \ Indivíduo 3 | 1 | 0 | Total |
|---|---|---|---|
| 1 | 3 | 2 | 5 |
| 0 | 1 | 2 | 3 |
| Total | 4 | 4 | 8 |
\[ s_{13} = \dfrac{a}{p}= \dfrac{3}{8} = 0,375 \]
Interpretação:
\[\Large s_{ij} = \displaystyle{\frac{a}{a + b + c}}\]
| Indivíduo 1 \ Indivíduo 3 | 1 | 0 | Total |
|---|---|---|---|
| 1 | 3 | 2 | 5 |
| 0 | 1 | 2 | 3 |
| Total | 4 | 4 | 8 |
\[ s_{13} = \dfrac{3}{3 + 2 + 1} = \dfrac{3}{6} = 0,5 \]
Interpretação:
O Coeficiente de Concordância de Gower–Legendre é uma medida de similaridade projetada para dados mistos, isto é, conjuntos de dados que contêm, ao mesmo tempo:
Ele permite combinar diferentes tipos de variáveis em uma única medida de similaridade, respeitando a natureza de cada uma.
Considere dois indivíduos \(i\) e \(j\) descritos por \(p\) variáveis. A similaridade de Gower–Legendre é definida como:
\[ S_{ij} = \dfrac{\sum_{k=1}^{p} w_{ijk}\, s_{ijk}} {\sum_{k=1}^{p} w_{ijk}}, \] onde:
O coeficiente assume valores em \([0,1]\):
Variáveis quantitativas
\[ s_{ijk} = 1 - \dfrac{|x_{ik} - x_{jk}|}{R_k}, \]
onde \(R_k\) é o intervalo da variável \(k\) (máximo − mínimo).
Variáveis qualitativas nominais
\[ s_{ijk} = \begin{cases} 1, & \text{se } x_{ik} = x_{jk}, \\ 0, & \text{caso contrário}. \end{cases} \]
Variáveis qualitativas ordinais
Para variáveis ordinais, os níveis são primeiro convertidos em postos normalizados no intervalo \([0,1]\). Em seguida, aplica-se a mesma fórmula das variáveis quantitativas:
\[ s_{ijk} = 1 - |r_{ik} - r_{jk}|, \]
onde \(r_{ik}\) e \(r_{jk}\) são os postos normalizados.
Interpretação:
\[\Large d_{ij}^* = 1 - s_{ij}\]
No exemplo:
| Cliente | Idade | N.º de carros | Classe social | Potência do motor | Combustível | Modelo |
|---|---|---|---|---|---|---|
| 1 | 20 | 1 | A | Baixa | Gasolina | Esporte |
| 2 | 37 | 2 | A | Alta | Gasolina | Luxo |
| 3 | 51 | 1 | C | Média | Gasolina | Esporte |
| 4 | 32 | 1 | D | Alta | Álcool | Standard |
| 5 | 30 | 2 | B | Média | Álcool | Standard |
| 6 | 55 | 3 | A | Alta | Gasolina | Luxo |
Temos que:
Cliente 1: Idade = 20, Carros = 1, Classe = A, Potência = Baixa, Combustível = Gasolina, Modelo = Esporte
Cliente 3: Idade = 51, Carros = 1, Classe = C, Potência = Média, Combustível = Gasolina, Modelo = Esporte
\[ s=\;1-\dfrac{|20-51|}{35}=1-\dfrac{31}{35}=\dfrac{4}{35}\approx 0,1143 \]
\[ s=\;1-\dfrac{|1-1|}{2}=1 \]
\(r(A)=1\) e \(r(C)=\tfrac{1}{3}\): \[ s=\;1-\left|1-\tfrac{1}{3}\right|=1-\tfrac{2}{3}=\tfrac{1}{3}\approx 0,3333 \]
\(r(\text{Baixa})=0\) e \(r(\text{Média})=\tfrac{1}{2}\): \[ s=\;1-\left|0-\tfrac{1}{2}\right|=\tfrac{1}{2}=0,5 \]
Gasolina = Gasolina \(\Rightarrow s=1\)
Esporte = Esporte \(\Rightarrow s=1\)
São \(p=6\) variáveis: \[ S_{1,3} =\dfrac{0,1143+1+0,3333+0,5+1+1}{6} \approx 0,6579 \]
Considerar inicialmente \(n\) grupos, sendo \(n\) o número de indivíduos. A matriz de distâncias \(\boldsymbol{D}_{n \times n}\) é a matriz de distâncias entre os elementos originais;
Selecionar os dois indivíduos mais próximos na matriz \(\boldsymbol{D}_{n \times n}\) e formar com eles um grupo;
Substituir os indivíduos utilizados no passo b) para definir o grupo por um novo elemento que represente o grupo construído. A distância entre esse novo elemento e os indivíduos restantes são calculadas utilizando um dos critérios que serão definidos a seguir;
Voltar ao passo b) e repetir os passos b) e c) até que tenhamos todos os elementos agrupados em um único grupo.
Representa uma síntese gráfica do método de agrupamento
Esse gráfico é de grande utilidade para a classificação, comparação e discussão de agrupamentos.
Suponha que temos um grupo \(K\) com \(n_k\) indivíduos e um grupo \(L\) com \(n_l\) indivíduos.
A distância entre os grupos \(K\) e \(L\) pode ser calculada com base em um dos cinco métodos seguintes:
Consiste em considerar que a distância entre os dois grupos é a menor distância entre as possíveis combinações de indivíduos tomados dos dois grupos considerados, isto é,
\[\Large d_{(K,L)} = \underbrace{\min(d_{ij})}_{i \in K, j \in L}\]
Esquematicamente:
Esquematicamente:
Consiste em considerar que a distância entre os dois grupos é a maior distância entre as possíveis combinações de indivíduos tomados dos dois grupos considerados, isto é,
\[\Large d_{(K,L)} = \underbrace{\max(d_{ij})}_{i \in K, j \in L}\]
Consiste em considerar que a distância entre os dois grupos é a média aritmética das distâncias entre as possíveis combinações de indivíduos tomados dos dois grupos considerados, isto é,
\[\Large d_{(K,L)} = \displaystyle{\sum_{i \in K} \sum_{j \in L}} \displaystyle{\frac{d_{ij}}{n_kn_l}}\]
Consiste em considerar que a distância entre os dois grupos é a distância euclidiana ao quadrado entre os centroides dos dois grupos. O centroide de um grupo é o ponto médio dos objetos contidos no grupo, isto é,
\[\Large d_{(K,L)} = (\bar{K} - \bar{L})^t(\bar{K} - \bar{L})\]
\[\bar{K} = \displaystyle{\frac{\displaystyle{\sum_{i \in K} i}}{n_k}} \hspace{0.2cm} {\rm e} \hspace{0.2cm} \bar{L} = \displaystyle{\frac{\displaystyle{\sum_{j \in L} j}}{n_l}}\]
\[SQE_A = \displaystyle{\sum_{i = 1}^{n_A}}(x_{i} - \bar{\bf x}_A)^t(x_{i} - \bar{\bf x}_A)\]
\[I_{AB} = SQE_{AB} - (SQE_A + SQE_B)\]
A união entre clusters \(A\) e \(B\) que proporcionarem menor acréscimo na \(SQE\) é executada.
Para usar o método de Ward, as variáveis devem ser quantitativas.
A fim de exemplificar a aplicação dos métodos de agrupamento, considere os dados da Tabela ao lado. Os sete casos são considerados as observações de cada indivíduo para as variáveis \(X_1\) e \(X_2\).
| Caso | \(X_1\) | \(X_2\) |
|---|---|---|
| 1 | 1 | 1 |
| 2 | 2 | 1 |
| 3 | 3 | 2 |
| 4 | 2 | 4,5 |
| 5 | 1 | 5 |
| 6 | 3 | 7 |
| 7 | 6 | 5 |
Representação dos casos no plano
Matriz de distâncias
\[D_0 = \left[ \begin{matrix} &1 & 2&3&4&5&6&7\\ 1& 0,000 & 1,000 & 2,236 & 3,640 & 4,000 & 6,325 & 6,403 \\ 2& & 0,000 & 1,414 & 3,500 & 4,123 & 6,083 & 5,657 \\ 3& & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4& & & & 0,000 & 1,118 & 2,693 & 4,031 \\ 5& & & & & 0,000 & 2,828 & 5,000 \\ 6& & & & & & 0,000 & 3,606 \\ 7& & & & & & & 0,000 \end{matrix} \right]\]
Matriz de distâncias
\[D_0 = \left[ \begin{matrix} &1 & 2&3&4&5&6&7\\ 1& 0,000 & \textbf{1,000} & 2,236 & 3,640 & 4,000 & 6,325 & 6,403 \\ 2& & 0,000 & 1,414 & 3,500 & 4,123 & 6,083 & 5,657 \\ 3& & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4& & & & 0,000 & 1,118 & 2,693 & 4,031 \\ 5& & & & & 0,000 & 2,828 & 5,000 \\ 6& & & & & & 0,000 & 3,606 \\ 7& & & & & & & 0,000 \end{matrix} \right]\]
\[\scriptsize d_{12} = \sqrt{\displaystyle{(X_{11} - X_{21})^2 + (X_{12} - X_{22})^2}} = \sqrt{\displaystyle{(1 - 1)^2 + (2 - 1)^2}} = \sqrt{1} = 1\]
Passo 1: juntar os casos 1 e 2
Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.
Aqui os métodos se diferenciam!
Método do vizinho mais próximo
Construção da nova matriz de distâncias
\[ \begin{aligned} d_{((1,2)3)} &= \min(d_{13};d_{23}) = \min(2,236; 1,414) = 1,414 \\[6pt] d_{((1,2)4)} &= \min(d_{14};d_{24}) = \min(3,640; 3,500) = 3,500 \\[6pt] d_{((1,2)5)} &= \min(d_{15};d_{25}) = \min(4,000; 4,123) = 4,000 \\[6pt] d_{((1,2)6)} &= \min(d_{16};d_{26}) = \min(6,325; 6,083) = 6,083 \\[6pt] d_{((1,2)7)} &= \min(d_{17};d_{27}) = \min(6,403; 5,657) = 5,657 \end{aligned} \]
Matriz de distâncias
\[D_1 = \left[ \begin{matrix} &(1,2)&3&4&5&6&7\\ (1,2)& 0,000 & 1,414 & 3,500 & 4,000 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4 & & & 0,000 & 1,118 & 2,693 & 4,031 \\ 5 & & & & 0,000 & 2,828 & 5,000 \\ 6 & & & & & 0,000 & 3,606 \\ 7 & & & & & & 0,000 \end{matrix} \right]\]
Matriz de distâncias
\[D_1 = \left[ \begin{matrix} &(1,2)&3&4&5&6&7\\ (1,2)& 0,000 & 1,414 & 3,500 & 4,000 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4 & & & 0,000 & \textbf{1,118} & 2,693 & 4,031 \\ 5 & & & & 0,000 & 2,828 & 5,000 \\ 6 & & & & & 0,000 & 3,606 \\ 7 & & & & & & 0,000 \end{matrix} \right]\]
Passo 2: juntar os casos 4 e 5
Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.
\[ \begin{aligned} d_{((4,5)(1,2))} &= \min(d_{14};d_{24};d_{15};d_{25}) = \min(3,640; 3,500; 4,000; 4,123) = 3,500 \\ &= \min(d_{(1,2)4};d_{(1,2)5}) = \min(3,500;4,000) \\ d_{((4,5)3)} &= \min(d_{34};d_{35}) = \min(2,693; 3,606) = 2,693 \\ d_{((4,5)6)} &= \min(d_{46};d_{56}) = \min(2,693; 2,828) = 2,693 \\ d_{((4,5)7)} &= \min(d_{47};d_{57}) = \min(4,031; 5,000) = 4,031 \end{aligned} \]
Matriz de distâncias
\[D_2 = \left[ \begin{matrix} &(1,2)&3&(4,5)&6&7\\ (1,2)& 0,000 & 1,414 & 3,500 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 5,000 & 4,243 \\ (4,5) & & & 0,000 & 2,693 & 4,031 \\ 6 & & & & 0,000 & 3,606 \\ 7 & & & & & 0,000 \end{matrix} \right]\]
Matriz de distâncias
\[D_2 = \left[ \begin{matrix} &(1,2)&3&(4,5)&6&7\\ (1,2)& 0,000 & \textbf{1,414} & 3,500 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 5,000 & 4,243 \\ (4,5) & & & 0,000 & 2,693 & 4,031 \\ 6 & & & & 0,000 & 3,606 \\ 7 & & & & & 0,000 \end{matrix} \right]\]
Passo 3: juntar o grupo \((1,2)\) como caso 3
Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.
\[ \small \begin{aligned} d_{(((1,2,3)(4,5))} &= \min(d_{14};d_{24};d_{34};d_{15};d_{25};d_{35}) \\ &= \min(3,640; 3,500; 2,693; 4,000; 4,123; 3,606) = 2,693 \\ &= \min(d_{(1,2)(4,5)};d_{(4,5)3}) = \min(3,500;2,693) \\ d_{((1,2,3)6)} &= \min(d_{16};d_{26};d_{36}) = \min(6,325; 6,083; 5,000) = 5,000 \\ &= \min(d_{((1,2)6)};d_{36}) = \min(6,083;5,000) \\ d_{((1,2,3)7)} &= \min(d_{17};d_{27};d_{37}) = \min(6,403; 5,657; 4,243) = 4,243 \\ &= \min(d_{((1,2)7)};d_{37}) = \min(5,657;4,243) \\ \end{aligned} \]
Matriz de distâncias
\[D_3 = \left[ \begin{matrix} &(1,2,3) &(4,5)&6&7\\ (1,2,3)& 0,000 & 2,693 & 5,000 & 4,243 \\ (4,5) & & 0,000 & 2,693 & 4,031 \\ 6 & & & 0,000 & 3,606 \\ 7 & & & & 0,000 \end{matrix} \right]\]
Matriz de distâncias
\[D_3 = \left[ \begin{matrix} &(1,2,3) &(4,5)&6&7\\ (1,2,3)& 0,000 & \textbf{2,693} & 5,000 & 4,243 \\ (4,5) & & 0,000 & \textbf{2,693} & 4,031 \\ 6 & & & 0,000 & 3,606 \\ 7 & & & & 0,000 \end{matrix} \right]\]
Passo 4: juntar o grupo \((4,5)\) como caso 6
Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.
\[ \small \begin{aligned} d_{(((4,5,6)(1,2,3))} &= \min(d_{14};d_{24};d_{34};d_{15};d_{25};d_{35};d_{16};d_{26};d_{36}) \\ &= \min(3,640; 3,500; 2,693; 4,000; 4,123; 3,606; 6,325; 6,083; 5,000) = 2,693 \\ &= \min(d_{(1,2,3)(4,5)};d_{(1,2,3)6}) = \min(2,693; 5,000) \\ d_{((4,5,6)7)} &= \min(d_{47};d_{57};d_{67}) = \min(4,031; 5,000; 3,606) = 3,606 \\ &= \min(d_{((4,5)7)};d_{67}) = \min(4,031;3,606) \\ \end{aligned} \]
Matriz de distâncias
\[D_4 = \left[ \begin{matrix} &(1,2,3) &(4,5,6) &7\\ (1,2,3)& 0,000 & 2,693 & 4,243 \\ (4,5,6) & & 0,000 & 3,606 \\ 7 & & & 0,000 \end{matrix} \right]\]
Matriz de distâncias
\[D_4 = \left[ \begin{matrix} &(1,2,3) &(4,5,6) &7\\ (1,2,3)& 0,000 & \textbf{2,693} & 4,243 \\ (4,5,6) & & 0,000 & 3,606 \\ 7 & & & 0,000 \end{matrix} \right]\]
Passo 5: juntar o grupo \((1,2,3)\) com o grupo \((4,5,6)\)
Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.
\[ \begin{aligned} d_{((1,2,3,4,5,6)7)} &= \min(d_{17};d_{27};d_{37};d_{47};d_{57};d_{67}) \\ &= \min(6,403; 5,657; 4,243; 4,031; 5,000; 3,606) = 3,606 \\ &= \min(d_{(1,2,3)7};d_{(4,5,6)7}) = \min(4,243; 3,606) \\ \end{aligned} \]
Matriz de distâncias
\[D_5 = \left[ \begin{matrix} &(1,2,3,4,5,6) & 7\\ (1,2,3,4,5,6 )& 0,000 & 3,606 \\ 7 & & 0,000 \end{matrix} \right]\]
Matriz de distâncias
\[D_5 = \left[ \begin{matrix} &(1,2,3,4,5,6) & 7\\ (1,2,3,4,5,6 )& 0,000 & \textbf{3,606} \\ 7 & & 0,000 \end{matrix} \right]\]
Resumo do método de agrupamento
| Passo | Nº de grupos | Grupos | Distância |
|---|---|---|---|
| 1 | 7 | 1, 2, 3, 4, 5, 6, 7 | 0,000 |
| 2 | 6 | (1,2), 3, 4, 5, 6, 7 | 1,000 |
| 3 | 5 | (1,2), 3, (4,5), 6, 7 | 1,118 |
| 4 | 4 | (1,2,3), (4,5), 6, 7 | 1,414 |
| 5 | 3 | (1,2,3), (4,5,6), 7 | 2,693 |
| 6 | 2 | (1,2,3,4,5,6), 7 | 2,693 |
| 7 | 1 | (1,2,3,4,5,6,7) | 3,606 |
O dendrograma permite ao pesquisador consultar a distância em que os clusters foram combinados para formar um novo cluster.
Clusters que são semelhantes entre si são combinados a baixas distâncias, enquanto grupos que são mais dissimilares são combinados em altas distâncias.
A diferença de distâncias define como os clusters próximos são um do outro.
Uma partição dos dados em um número especificado de grupos pode ser obtida “cortando” o dendograma a uma distância apropriada.
Se traçarmos uma linha horizontal no dendograma a uma determinada distância, então o número \(k\) das linhas verticais cortadas por essa linha horizontal identificará uma solução \(k\)-cluster.
A intersecção da linha horizontal e uma dessas linhas verticais representa um cluster, e os itens localizados no final de todos os ramos abaixo interseção constituem os membros do cluster.
Medida de validação usada nos métodos hierárquicos principalmente
Idéia: realizar uma comparação das distâncias observadas e preditas (via a formação de agrupamentos) entre os objetos
Em um bom agrupamento, espera-se que as distâncias previstas respeitem a ordem determinada pelas distâncias observadas.
Para avaliar a ocorrência desse comportamento, define-se a correlação cofenética como sendo a correlação entre as distâncias efetivamente observadas e as previstas.
A análise (gráfico) da silhueta é um método utilizado para interpretação e validação de uma análise de clusters.
Consiste no cálculo e representação gráfica de uma medida de quão bem cada elemento está alocado ao respectivo cluster.
Tomando a média dessas medidas em um particular cluster, tem-se uma medida de coesão do cluster;
Tomando-se a média dessas medidas em toda a amostra, tem-se uma medida de consistência dos agrupamentos formados.
\(a_{(i)}\) = distância média do objeto \(i\) para os elementos de seu próprio grupo
\(b_{(i)}\) = distância média do objeto \(i\) para os elementos do grupo mais próximo
\[s_{(i)} = \displaystyle{\dfrac{b_{(i)} - a_{(i)}}{\max(b_{(i)},a_{(i)})}}, \,\,\, i = 1, \cdots, n\]
Se \(a_{(i)} <<< b_{(i)}, s_{(i)} \approx 1\), indicando que \(i\) é muito menos dissimilar dos elementos de seu grupo do que dos elementos dos outros grupos (\(i\) está bem alocado);
Se \(a_{(i)} >>> b_{(i)}, s_{(i)} \approx −1\), indicando que \(i\) é muito mais dissimilar dos elementos de seu grupo do que dos elementos do grupo vizinho (\(i\) está mal alocado);
Se \(a_{(i)} \approx b_{(i)}, s_{(i)} \approx 0\), indicando que \(i\) está na fronteira de seu grupo e do grupo vizinho.
| Silhueta Média | Interpretação Sugerida |
|---|---|
| \(0{,}71 - 1{,}00\) | Grupos encontrados possuem estrutura muito robusta |
| \(0{,}51 - 0{,}70\) | Grupos razoavelmente unidos |
| \(0{,}26 - 0{,}50\) | A estrutura encontrada é fraca, tente outros métodos de agrupamento |
| \(\leqslant 0{,}25\) | Nenhuma estrutura encontrada |